一位可能掌握着我们未来的天才。
>> 谷歌DeepMind的首席执行官,该公司人工智能的引擎。
>> 在获得诺贝尔奖和查尔斯国王授予的爵位后,他成为了人工智能领域的先驱。
>> 我们是现代最早开始认真做这件事的人。
AlphaGo是一个重大的分水岭时刻,我认为,不仅对我的公司DeepMind而言,对整个人工智能领域也是如此。
这一直是我从小对人工智能的目标,那就是利用它来加速科学发现。
>> 女士们,先生们,请欢迎谷歌DeepMind的Demis Hassabis。
[掌声]
>> 欢迎。
>> 很高兴来到这里。
>> 谢谢。
感谢你在Tucker、Mark Cuban等人之后出场。嗯,首先,恭喜你获得诺贝尔奖。
>> 谢谢。
>> 嗯,感谢AlphaFold带来的不可思议的突破。 也许你以前做过这个,但我知道这里的每个人都想听你讲述一下你是如何、在何地得知自己获得了诺贝尔奖的。 你是怎么发现的?
>> 嗯,那显然是一个非常超现实的时刻。 嗯,你知道,关于它的一切都是超现实的。 他们通知你的方式,他们在大约一切都将要直播的10分钟前告诉你。 就是,你知道,你真的无法……当你接到来自瑞典的电话时,你会有点震惊。 这是每个科学家都梦寐以求的电话。 嗯,然后是授奖仪式,在瑞典与皇室共度的一整周。 这太棒了。 很显然,这个传统已经持续了120年了。 啊,最精彩的部分是他们从金库的保险柜里拿出这本诺贝尔之书,然后你可以在上面签下你的名字,旁边就是所有其他的伟人。 所以,翻阅着前面的书页,看到费曼、玛丽·居里、爱因斯坦和尼尔斯·玻尔,然后你继续往回翻,你可以在那本书上签下你的名字,那真是一个令人难以置信的时刻。
这太不可思议了。
>> 你有没有预感到你被提名了,并且这可能会降临到你身上?
>> 嗯,你你你会听到一些谣言。 在今天的时代,他们能把这件事保守得如此之好,真是令人惊讶。 但嗯,这对瑞典来说,有点像国家宝藏。 嗯,所以你会听说,你知道,也许AlphaFold是那种值得获得那种认可的东西。 而且,他们不仅看重科学突破,也看重影响力,在现实世界中的影响力。 而这可能需要20到30年才能实现。 所以你永远不知道,你知道,它会多快到来,以及它是否会到来。 所以这是一个惊喜。
>> 嗯,恭喜。
>> 是的。谢谢。
>> 嗯,也谢谢你。 几周前你让我和它合影了,所以这是我会珍惜的东西。
>> 嗯,DeepMind在Alphabet内部是什么角色? Alphabet是一个庞大的组织,拥有庞大的业务部门。 DeepMind是什么? 你负责什么?
>> 嗯,我们现在看待DeepMind以及它已经成为的Google DeepMind的方式是这样的。 我们大约在几年前合并了谷歌和Alphabet旗下所有不同的人工智能项目,包括DeepMind。 把它们全部整合在一起,将所有不同团队的优势汇集到一个部门。 嗯,我现在描述它的方式是,我们是整个谷歌和整个Alphabet的引擎室。 所以Gemini,我们正在构建的主要模型,以及我们也在构建的许多其他模型,视频模型和交互式世界模型,我们现在将它们接入到整个谷歌。 所以几乎每个产品,每个表面区域都有我们的人工智能模型。 所以你知道,现在有数十亿人与Gemini模型互动,无论是通过AI概览、AI模式,还是Gemini应用。 嗯,而这仅仅是个开始。 你知道,我们正在将其整合到Workspace、Gmail等等。 所以这真是一个绝佳的机会,让我们能够进行前沿研究,然后立即将其交付给数十亿用户。
>> 还有,有多少人?人员构成是怎样的?他们是科学家、工程师吗? 你们的团队组成是怎样的?
>> 在我的组织,也就是Google DeepMind,大约有5000人,而且你知道,主要组成是,我猜80%以上是工程师和博士研究员。 所以,呃,是的,大约有,你知道,三四千人。
>> 所以,模型的演进,有很多新模型出现,也有新的模型类别。 嗯,前几天你们发布了这个Genie世界模型。
>> 是的。
>> 那么,Genie世界模型是什么?嗯,我想我们有它的视频。 值得一看吗?我们可以边看边实时讨论吗?
>> 是的,我们可以看。当然。
>> 因为我认为你必须亲眼看到才能理解,因为它太非凡了。 嗯,我们能播放那个视频吗?然后Demis可以稍微解说一下我们看到的是什么。
>> 你看到的不是游戏或视频,它们是世界。 每一个都是由Genie 3生成的可交互环境,这是世界模型的新前沿。 有了Genie3,你可以使用自然语言生成各种各样的世界,并与它们进行互动探索。 仅凭一个文本提示即可完成。
>> 是的。所以所有这些视频,所有你看到的这些交互式世界,所以你看到有人实际上可以控制这个视频。 它不是一个静态视频。 它只是由一个文本提示生成的。 然后人们能够使用箭头键和空格键来控制这个3D环境。 所以你在这里看到的一切,所有这些像素都是即时生成的。 在玩家或者与它互动的人到达世界的那个部分之前,它们是不存在的。 所以,嗯,所有这些丰富性,嗯,然后你马上就会看到。 所以,这是完全生成的。 这不是一个真实的视频。 这是生成的,有人在粉刷他们的房间,他们在墙上画了一些东西。 然后玩家会向右看。 啊,然后回头看。 所以,现在世界的这一部分之前是不存在的,所以现在它存在了。 然后他们回头看,他们看到了刚才留下的同样的绘画痕迹。 再次强调,这完全是,你能看到的每一个像素都是完全生成的。 然后你可以输入像“穿着鸡服装的人”或“一艘水上摩托”之类的东西,它就会实时地把它们包含到场景中。
>> 所以,嗯,我想……
>> 你知道,这真的相当令人震撼。
>> 我想,看这个的时候很难理解的是,因为我们都玩过带有3D元素的视频游戏,当你身处一个沉浸式世界时,但这里并没有被创造出来的物体。 没有渲染引擎。 你没有使用Unity或Unreal,那些是3D渲染引擎。
>> 是的。
>> 这实际上只是由AI即时创建渲染出的2D图像。
>> 这个模型正在逆向工程直观物理学。 所以,你知道,它看过了数百万个视频和YouTube视频以及关于世界的其他东西。 仅仅通过这些,它就有点逆向工程出了世界的大部分运作方式。 它还不完美,但它能生成一到两分钟连贯的互动,作为用户,在许多许多不同的世界里。 后面有些视频,你可以控制,你知道,沙滩上的一条狗,或者一只水母,它不局限于人类的东西。
>> 因为3D渲染引擎的工作方式是,你输入,程序员编写所有的物理定律。 光线如何从物体上反射? 你创建一个3D物体,光线反射出去,然后我视觉上看到的东西是由软件渲染的,因为它有关于如何创建物理、如何做物理的所有编程。
>> 但这个只是通过视频训练出来的,它自己搞懂了一切。
>> 是的,它是通过视频和一些来自游戏引擎的合成数据训练出来的,它只是逆向工程了它。 对我来说,这个项目非常贴近我的内心,但它也相当令人震撼,因为在90年代,在我职业生涯的早期,我曾经编写视频游戏和视频游戏的人工智能以及图形引擎。 我还记得要手动完成这些工作有多难,编程所有的多边形和物理引擎。 嗯,看到这个毫不费力地做到这一切,真是太神奇了,水面上的所有反射,材料流动的方式,以及物体的行为。 它就是开箱即用地做到了这一切。 我觉得很难描述那个模型解决了多少复杂性。 啊,这真的,真的,真的令人震撼。 这会把我们带向何方? 所以,快进这个模型到第五代。
>> 是的。所以,我们之所以构建这类模型,是因为我们觉得,并且一直觉得,显然要在像我们的Gemini模型这样的常规语言模型上取得进展,但从一开始,我们就希望Gemini是多模态的。 所以我们希望它能输入任何类型的输入,图像、音频、视频,并且能输出任何东西。 嗯,所以我们对这个非常感兴趣,因为要让一个AI真正通用,要构建AGI,我们觉得AGI系统需要理解我们周围的世界和我们周围的物理世界,而不仅仅是语言或数学的抽象世界,当然,这对机器人技术能起作用至关重要。 这可能是它今天所缺失的。 还有像智能眼镜这样的东西,一个在你的日常生活中帮助你的智能眼镜助手。 它必须理解你所处的物理环境,以及世界,世界的直观物理学是如何运作的。 所以我们认为,构建这些类型的模型,这些Genie模型,还有我们的VEO,最好的文本到视频模型,这些都是我们构建能够理解世界动态、世界物理学的世界模型的体现。 如果你能生成它,那么,这就是你的系统理解那些动态的一种表现。
>> 而这最终会导向一个机器人世界,嗯,一个方面,一个应用,但也许我们可以谈谈这个,今天视觉-语言-行动模型的最新技术水平是怎样的? 所以一个通用系统,一个盒子,一台能用摄像头观察世界的机器,然后我可以用语言,我可以用文本或语音告诉它我希望你做什么。 然后它就知道如何采取物理行动,为我在物理世界里做些什么。
>> 没错。 所以,如果你看一下我们的Gemini,Gemini的实时版本,你可以把你的手机举向你周围的世界,我推荐你们任何人都试试。 它对物理世界的理解已经有点神奇了。 嗯,你可以把下一步想象成把它集成到某种更方便的设备中,比如眼镜。 嗯,然后它就会成为一个日常助手。 它将能够在你走在街上时向你推荐东西,或者我们可以把它嵌入到谷歌地图中。 嗯,然后是机器人技术,我们已经构建了一种叫做Gemini机器人模型的东西,这是一种用额外的机器人数据对Gemini进行微调的模型。 关于这个真正酷的是,我们在夏天发布了一些相关的演示,就是你可以有,你知道,我们有这些桌面设置,两只手,与桌上的物体互动,两只机械手,你可以直接和机器人说话。 所以你可以说,你知道,把黄色的物体放进红色的桶里,或者别的什么,它就会,它会把那个指令,那个语言指令,解释成运动动作,这就是多模态模型的力量,而不仅仅是一个机器人专用模型,因为它将能够把对现实世界的理解带入你与它互动的方式中。 所以最终,它将成为你所需要的用户界面和用户体验,以及机器人安全地在世界中导航所需要的理解力。
>> 我问过Sundar这个问题,这是否意味着最终你们可以构建出相当于,可以称之为类Unix的操作系统层,或者像一个用于通用机器人技术的安卓系统,到了那个时候,如果它在足够多的设备上运行得足够好,机器人设备、公司和产品将会激增,突然间在世界上腾飞,因为这个软件可以通用地做这件事。
>> 正是如此。 这当然是我们正在追求的策略之一,如果你愿意,可以称之为一种安卓式的玩法,跨越,作为一种机器人技术,几乎是一个跨机器人技术的操作系统层。 嗯,但也有一些非常有趣的事情,关于将我们最新的模型与特定的机器人类型和机器人设计进行垂直整合,以及某种端到端的学习。 所以两者实际上都非常有趣,我们正在同时追求这两种策略。
>> 你认为人形机器人是一种好的,嗯,形态因子吗? 这在世界上有意义吗? 因为有些人批评它,说它对人类有好处,因为我们本就该做很多不同的事情,但如果我们想解决一个问题,可能会有不同的形态因子来折叠衣物、洗碗或打扫房子之类的。
>> 是的,我认为两者都会有一席之地。 所以,实际上我曾经持有一种观点,也许是五到十年前,我们会有针对特定任务的特定形态的机器人,而且我认为在工业领域,工业机器人绝对会是那样的,你可以为特定任务优化机器人,无论是在实验室还是在生产线上,你都会想要相当不同类型的机器人。 嗯,另一方面,对于通用用途或个人用途的机器人技术,以及仅仅与普通世界互动,人形形态因子可能非常重要,因为我们当然是围绕人类来设计我们周围的物理世界的。 所以台阶、门口,所有我们为自己设计的东西,与其改变现实世界中所有这些东西,设计一种能与我们已经设计好的世界无缝协作的形态因子可能会更容易。 所以我认为有一种观点可以证明,对于那些类型的任务,人形形态因子可能非常重要。 嗯,但我认为专门化的机器人形态也有一席之地。
>> 在未来5年、7年内,你对数量级有看法吗?是数亿、数百万,还是数千? 我的意思是,你脑海里,有没有一个愿景?
>> 是的,我确实有,而且我花了很多时间思考这个问题,我认为我们仍然,我觉得我们在机器人技术方面还有点早。 我认为在未来几年内,机器人技术会有一个真正的“哇”时刻,但嗯,我认为算法还需要一些更多的发展。 这些机器人模型所基于的通用模型还需要变得更好、更可靠,并且更好地理解周围的世界。 嗯,我认为这将在未来几年内实现。 然后在硬件方面,关键是,我认为最终我们将拥有数百万个机器人帮助社会、提高生产力。 但这里的关键是,当你和硬件专家交谈时,在哪个时间点,你拥有了合适的硬件水平去选择规模化方案,因为实际上,当你开始围绕制造数万、数十万个特定机器人类型来建厂时,你知道,你就更难快速更新、迭代机器人设计了。 所以,这是一个那种问题,如果你过早地做出决定,呃,那么下一代机器人可能在6个月后就被发明出来了,它会更可靠、更好、更灵巧。
>> 听起来像用一个计算领域的类比,我们有点像在70年代的个人电脑DOS时代,那种……
>> 是的,有可能。 但当然,我认为,也许我们就在那个阶段,但我认为,除了10年的事情可能在1年内发生。
>> 是的,就是那种年份之一,对吧? 正是如此。 是的。
>> 嗯,让我们谈谈其他应用,特别是在科学领域。 啊,这正是你的心之所向,作为一个科学家,作为一个诺贝尔奖得主科学家,我一直觉得我们能用AI做的最伟大的事情,将是那些对于人类用我们现有技术、能力和大脑来说难以解决的问题,我们可以解锁所有这些潜力。 你最兴奋的科学领域和科学突破是什么? 我们用什么样的模型来实现这些?
>> 是的,我的意思是,用人工智能来加速科学发现,并帮助解决像人类健康这样的事情,是我整个职业生涯致力于人工智能的原因,而且我认为,这是我们能用人工智能做的最重要的事情,我觉得如果我们以正确的方式构建AGI,它将成为科学的终极工具,而且我认为我们DeepMind一直在展示这方面的很多方式,显然最著名的是AlphaFold,但实际上我们已经将我们的人工智能系统应用于许多科学分支,无论是材料设计,帮助控制聚变反应堆中的等离子体,预测天气,嗯,解决,你知道,奥林匹克数学竞赛的数学问题,以及同样类型的系统,经过一些额外的微调,基本上可以解决很多这类复杂问题。
>> 所以我认为我们才刚刚触及人工智能所能做的表面,还有一些东西是缺失的。 所以,今天的AI,我会说它没有真正的创造力, بمعنى أنه还不能提出一个新的猜想或新的假设。 它或许能证明你给它的某个东西,但它无法自己提出一种新的想法或新的理论。 所以我认为这实际上会是AGI的测试之一。
>> 作为人类,那种创造力是什么?
>> 是的。
>> 什么是创造力?
>> 我认为这是那种直觉上的飞跃,我们经常为历史上最优秀的科学家和艺术家所称颂。 嗯,你知道,也许它是通过类比或类比推理来完成的。 在心理学和神经科学中有很多关于我们作为人类科学家是如何做到这一点的理论。 但一个好的测试方法会是这样的,比如给这些现代AI系统一个1901年的知识截止日期,看看它是否能像爱因斯坦在1905年那样提出狭义相对论。 对吧? 如果它能做到这一点,那么我认为我们就掌握了一些真正,真正重要的东西,也许我们正在接近AGI。 另一个例子是我们击败围棋世界冠军的AlphaGo程序。 嗯,它不仅仅是在,你知道,10年前赢了,它还发明了前所未见的新策略, для игры в го,这著名的第二局第37手现在被人们研究。 但是一个AI系统能想出一个像围棋一样优雅、令人满意、具有美感的博弈游戏吗,而不仅仅是一个新策略? 对这些问题的答案目前是否定的。 所以这是我认为一个真正的通用系统,一个AGI系统所缺失的东西之一,是它应该也能做那种事情。
>> 你能分析一下缺失的是什么吗?也许这与Dario Sam等人分享的关于AGI几年后就会到来的观点有关。 你不认同那种信念吗?也许可以帮助我们理解,在你对结构的理解中,在你对系统架构的理解中,缺少的是什么?
>> 嗯,所以我认为这最根本的方面是,我们能否模仿这些直觉上的飞跃,而不是最优秀的人类科学家似乎能够做到的渐进式进步。 我总是说,一个伟大的科学家和一个优秀的科学家的区别在于,他们当然在技术上都非常有能力。 嗯,但伟大的科学家更具创造力,所以也许他们会发现来自另一个学科领域的某种模式,可以与他们试图解决的领域进行类比或某种模式匹配。 而且我认为有一天AI将能够做到这一点,但它不具备进行那种突破所需要的推理能力和一些思考能力。 嗯,我还认为我们缺乏一致性。 所以你经常听到我们的一些竞争对手谈论,你知道,我们今天拥有的这些现代系统是博士级别的智能。 我认为那是胡说八道。 它们不是博士级别的智能。 它们有一些能力是博士级别的。 嗯,但它们在总体上不具备,而这正是通用智能应该具备的,在所有方面都达到博士水平的表现。 事实上,正如我们与今天的聊天机器人互动时都知道的,如果你以某种方式提出问题,它们甚至在高中数学和简单的计数上都会犯简单的错误。 所以,对于一个真正的AGI系统来说,这不应该是可能的。 所以我认为我们可能,你知道,我会说,大约还有五到十年,才能拥有一个能够做那些事情的AGI系统。 嗯,另一个缺失的东西是持续学习。 这种能力,比如在线教系统一些新东西,或者以某种方式调整它的行为。 所以我认为很多这些核心能力仍然是缺失的,也许规模化能让我们达到那里,但我觉得如果我打赌的话,我认为可能还需要一到两个缺失的突破,而这些突破将在未来五年左右出现。
>> 与此同时,一些报告和评分系统似乎表明了两件事。 第一,也许,告诉我我们是否错了,大型语言模型的性能趋于一致;第二,也许是每一代性能的改进速度在放缓或趋于平稳。 这两个说法大体上是真的吗? 还是不尽然?
>> 不,我的意思是,我们在内部没有看到这种情况,而且我们仍然看到了巨大的进步速度。 嗯,而且,我们正在更广泛地看待事物。 你看我们的Genie模型和VEO模型,还有Nana Banana,太疯狂了。 简直是疯了。 简直是疯了。
>> 这里有人用过吗?我能看看谁用过吗?有人用过Nana Banana吗?
>> 太不可思议了,对吧? 我的意思是,我是一个小时候用Adobe Photoshop和Kai's Power Tools的书呆子,我跟你说过Bryce 3D。 所以,像是图形系统,以及识别那里发生的事情,简直是令人震撼。
>> 嗯,我认为这就是很多这些创意工具的未来,你只需要和它产生共鸣,或者和它们交谈,它们会足够一致,就像Nana Banana一样,它之所以如此出色,是因为它是一个图像生成器。 它是最好的,你知道,它是最先进的、同类中最好的,但使它如此出色的原因之一是它的一致性。 它能够理解指令,遵循你想要改变的地方,并保持其他一切不变。 所以你可以和它一起迭代,最终得到你想要的输出。 而这就是,我认为很多这些创意工具的未来将会是这样,嗯,并且预示了方向,人们喜欢它,也喜欢用它来创作。
>> 所以创造力的民主化,我认为真的非常强大。 我记得小时候不得不买关于Adobe Photoshop的书,然后你会读它们来学习如何从图像中移除某些东西,如何填充它,以及羽化等等。 现在任何人都可以用Nana Banana做到,他们只需要向软件解释他们想让它做什么,它就照做了。
>> 是的。 我认为你会看到两件事,一是这种工具的民主化,让每个人都可以直接使用和创作,而无需学习,你知道,像我们过去必须做的那样,极其复杂的用户体验和用户界面。 但另一方面,我认为我们,我们也在与电影制作人、顶尖创作者和艺术家合作。 嗯,所以他们在帮助我们设计这些新工具应该是什么样的,他们想要什么功能。 像导演达伦·阿罗诺夫斯基这样的人,他是我的好朋友,一位了不起的导演,他和他的团队一直在使用VEO和我们的一些其他工具制作电影,我们通过观察他们并与他们合作学到了很多。 我们发现的是,它也给最优秀的专业人士带来了超能力和极大的提升,因为他们突然间,最优秀的创意人士,专业的创意人士,他们突然能够将生产力提高10倍、100倍。 他们可以以非常低的成本尝试脑海中各种各样的想法,然后得到他们想要的美好事物。 所以,我实际上认为这两件事都是真的。 我们正在为日常使用、为YouTube创作者等实现民主化。 但另一方面,在高端领域,那些理解这些工具的人,而且不是每个人都能从这些工具中得到相同的输出,这其中也有技巧,以及顶尖创意人士的视野、叙事能力和叙事风格。 我认为这只是让他们,他们非常享受使用这些工具。 这让他们能够以快得多的速度进行迭代。
>> 我们会进入一个每个人描述自己感兴趣的内容的世界吗? 给我播放像戴夫·马修斯那样的音乐,然后它就会播放一些新曲目。 是的。
>> 或者我想玩一个设定在电影《勇敢的心》中的视频游戏,我想置身于那部电影中。 是的。
>> 然后我就拥有了那种体验。 我们最终会到那里吗? 还是社会中仍然会有一对多的创作过程? 在文化上有多重要,我知道这有点哲学化,但我对此很感兴趣,那就是我们会继续拥有讲故事的方式吗? 我们有一个我们都分享的故事,因为是某人创作的,还是我们每个人都会开始发展并沉浸在自己的某种虚拟世界中?
>> 我实际上预见到了一个世界,并且我对此思考了很多,因为我是在90年代作为游戏设计师和程序员在游戏行业起步的,那就是,你知道,我认为娱乐的未来,我们现在看到的,是娱乐未来的开端,也许是某种新的类型或新的艺术形式,其中有一点共同创作。 我仍然认为你会拥有顶尖的创意远见者。 嗯,他们将创造这些引人入胜的体验和动态的故事情节,而且即使他们使用相同的工具,其质量也会比普通人能做的更高。 但同时,也许数百万人会潜在地潜入那些世界,但也许他们也能够共同创造那些世界的某些部分,也许你知道,主要的创意人几乎是那个世界的编辑。 所以这就是我在未来几年预见到的事情,而且我实际上想用像Genie这样的技术亲自探索。
>> 对。 太不可思议了。 你现在在忙什么? 你在……也许你可以描述一下Isomorphic?
>> 当然。
>> Isomorphic是什么?你是否花了很多时间在那里?
>> 是的。 所以,我还负责Isomorphic,这是我们的分拆公司,旨在彻底改变药物发现,建立在我们AlphaFold在蛋白质折叠领域的突破之上。 当然,了解蛋白质的结构只是药物发现过程中的一步。 所以你可以把Isomorphic想象成在构建许多与AlphaFold相邻的模型,以帮助解决诸如设计没有任何副作用但能与蛋白质正确位置结合的化学化合物等问题。 嗯,我认为在未来10年里,我们可以将药物发现从耗时数年,有时是十年,缩短到可能几周甚至几天。
>> 这太不可思议了。 你认为这很快会进入临床阶段,还是仍在发现阶段?
>> 我们现在正在构建平台,而且我们与礼来公司有很好的合作关系。 我想你早些时候听过他们CEO的演讲,还有诺华,他们都很棒,还有我们自己的内部药物项目,我认为我们明年某个时候会进入临床前阶段。 所以候选药物会移交给制药公司,然后由他们推进。
>> 没错。 我们正在研究癌症、免疫学和肿瘤学,我们正在与像MD安德森这样的地方合作。
>> 这其中有多少需要,我只是想回到你刚才关于AGI的观点,因为它与你刚才说的有关。 模型可以是概率性的或确定性的,如果我把这个简化得太简单了请告诉我,就是模型接受一个输入,然后输出一个非常具体的东西,就像它有一个逻辑算法,每次都输出同样的东西;它也可以是概率性的,它可以改变事物并做出选择,概率是80%我会选择这个字母,90%我会选择下一个字母,等等。 嗯,在你进行药物发现建模时,我们有多大程度上需要开发与例如潜在的分子相互作用的物理或化学相符的确定性模型? 你在多大程度上构建了与那些在数据上训练的概率性模型一起工作的新型确定性模型?
>> 是的,这是一个很好的问题。 实际上,目前,而且我认为可能在未来5年左右,我们正在构建的或许可以称为混合模型。 所以,AlphaFold本身就是一个混合模型,你既有学习组件,也就是你说的这个概率性组件,它基于神经网络和Transformer之类的东西,从你给它的数据中学习,你知道,任何你可用的数据,但同时在很多生物学和化学的情况下,没有足够的数据可供学习。 所以你也必须内置一些你已经知道的关于化学和物理的规则。 所以,例如,对于AlphaFold,原子间键的角度。 嗯,所以要确保AlphaFold明白原子不能相互重叠之类的。 现在理论上它可以学习到这些,但这会浪费大量的学习能力。 所以实际上最好是把它作为一个约束条件放在里面。 现在,所有混合系统的诀窍是,AlphaGo是另一个混合系统,其中一个神经网络学习围棋以及什么样的模式是好的,然后我们在此之上还有蒙特卡洛树搜索,它负责规划,所以诀窍在于你如何将一个学习系统与一个更手工制作的、定制的系统结合起来,并让它们真正协同工作。 嗯,那做起来相当棘手。
>> 你认为这种架构最终会带来AGI所需的突破吗? 是否有需要解决的确定性组件?
>> 我认为最终你想做的是,当你用这些混合系统之一弄清楚某件事时,你最终想做的是把它上溯到学习组件中。 所以,如果你能进行端到端的学习,并直接从你得到的数据中预测你所追求的东西,那总是更好的。 所以,一旦你用这些混合系统之一弄清楚了某件事,你就会尝试回去逆向工程你所做的一切,看看你是否能将那种学习,那种信息,整合到学习系统中。 这有点像我们用AlphaZero,即AlphaGo的更通用形式,所做的事情。 所以AlphaGo里面有一些围棋特定的知识。 但是后来有了AlphaZero,我们摆脱了那些东西,包括我们学习的人类数据、人类棋局,实际上只是从头开始进行自我学习。 当然,然后它就能够学习任何游戏,而不仅仅是围棋。
>> 关于人工智能引起的能源需求,有很多炒作和喧嚣。 这是几周前我们在华盛顿特区举行的AI峰会的一个重要部分,而且这似乎是现在科技界每个人都在谈论的头号话题。 所有这些电力将从何而来? 但我问你一个问题,模型架构、硬件,或者模型与硬件之间的关系是否存在变化,从而降低了每个输出令牌的能耗,或者每个输出令牌的成本,最终或许可以说抑制了我们面前的能源需求曲线? 或者你认为情况并非如此,我们仍然会有一个相当几何级的能源需求曲线?
>> 嗯,看,有趣的是,我认为两种情况都是对的,特别是在谷歌和DeepMind,我们非常关注非常高效且功能强大的模型,因为我们有自己的内部用例,当然,我们需要每天为数十亿用户提供AI概览,它必须极其高效、延迟极低且服务成本非常便宜,所以我们开创了许多技术,让我们能够做到这一点,比如蒸馏,你有一个更大的内部模型来训练较小的模型,对吧? 所以,你训练较小的模型来模仿较大的模型。 随着时间的推移,你看看过去两年的进展,模型效率提高了10倍,你知道,甚至在相同性能下提高了100倍。 现在,这并没有减少需求的原因是,我们还没有达到AGI。 所以,同样地,前沿模型,你一直想在越来越大的规模上训练和实验新想法,而与此同时,在服务方面,事情变得越来越高效。 所以两件事都是真的,而且最终我认为从能源的角度来看,我认为AI系统回馈给能源、气候变化以及这类东西的,将远比它们消耗的要多,在电网系统、电力系统、材料设计、新型属性、新能源的效率方面。 我认为在未来10年里,人工智能将帮助解决所有这些问题,其贡献将远远超过它今天使用的能源。
>> 作为最后一个问题,描述一下10年后的世界。
>> 哇。好的。
>> 嗯,我的意思是,你知道,10年,甚至10周在AI领域都是一生那么长。 所以,嗯,10年的领域,对吧? 但我确实觉得,如果我们在未来10年内拥有AGI,你知道,完全的AGI,嗯,我认为那将开启一个科学的新黄金时代。 所以,一种新的文艺复兴。 嗯,而且我认为我们将看到其益处遍及从能源到人类健康的各个方面。
>> 太棒了。 请和我一起感谢诺贝尔奖得主Demis。 谢谢。 太精彩了。 谢谢。
[掌声]